Universitat 

Zurich”" 


Institut  fur  Computerlinguistik 


Masterarbeit: 
Computerlinguistik  und 
Massenuberwachung 

lm  Lichte  der  Enthullungen  Snowdens 
Hernani  Marques  Madeira  <h2m@access.uzh.ch> 

OpenPGP-FP:  7FE5  71F9  3B0C  AE18  8424  C7C2  7B83  6E41  F7AB  9CE5 
Betreuung:  Dr.  Noah  Bubenhofer  (Referent:  Prof.  Dr.  Martin  Volk) 


13.10.2015 


Seite  1 


Universitat 

Zurich1™ 

institut  fur  Computerlinguistik 


Motivation  und  Ziele  der  Masterarbeit 


Universitat 

Zurich”" 


Institut  fur  Computerlinguistik 


Motivation  (1) 


- Personliches  Interesse  fur  Grundrechtsthemen:  z.  B.  Datenschutz 
und  Informationsfreiheit 

- Vergegenwartigung  des  massiven  Uberwachungskomplexes:  z.  B. 
durch  Berichte  parlamentarischer  Kontrollgremien, 
Snowden-Enthullungen  und  WikiLeaks-Veroffentlichungen 

- Politische  Entwicklungen  hin  zu  mehr  und  deutlicheren  Formen  der 
Massenuberwachung  (auch  in  der  Schweiz:  z.  B.  Gesetze  BlIPF  und 
NDG) 
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Motivation  (2) 


- Offenlegung  / Entzauberung  des  «Herrschaftswissens»  in  Sachen 
Theorie  und  Praxis  der  Massenuberwachung 

- Anregung  Diskussion  Wirksamkeit  von  Massenuberwachung  zur 
angeblichen  Erhohung  der  Sicherheit  aller  (politisches 
Verkaufsargument) 

- Last  but  not  least:  Sensibilisierung  fur  Missbrauchspotenzial  der 
Computerlinguistik  im  Zusammenhang  mit  Massenuberwachung 
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Wichtige  Forschungsfragen 


- Was  ist  Uberwachung,  spezifisch  Massenuberwachung? 

- Wie  kann  Massenuberwachung  computerlinguistisch  betrieben 
werden? 

- Was  wird  [wurde]  erforscht:  z.  B.  im  Rahmen  der  NSA,  von 
Forschungsprogrammen  der  EU  (z.  B.  INDECT)? 

- Was  wird  praktiziert:  z.  B.  in  der  Schweiz  (Funk-Massenuberwachung), 
gemass  Snowden-Enthullungen  Oder  WikiLeaks-Veroffentlichungen? 

- Welche  linguistisch  verwertbaren  Daten  fallen  bei  der  Uberwachung 
vollstandiger  Datenstrome  uberhaupt  an? 

- Welche  konkreten  Daten  eines  Datenstroms  sind  am 
interessantesten  und  reichen  aus,  um  die  Natur  der 
Massenuberwachung  im  Rahmen  der  Masterarbeit  exemplarisch 
darzustellen? 
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Fokus  der  Arbeit 


- Die  Arbeit  zeigt  im  Recherche-Teil  breit  auf,  was  computerlinguistisch 
moglich  ist,  auf  Basis  von  Forschung  und  Oberwachungspraxis,  die 
bekannt  geworden  ist. 

- Die  Arbeit  fokussiert  im  praktischen  Teil  rein  auf  computerlinguistisch 
verwertbare  textuellen  Inhalte  (z.  B.  PDF-,  XML-  Oder  HTML-Material) 
und  bildet  einfache  (und  doch  existierende)  Moglichkeiten  der 
Volltextuberwachung  auf  Basis  von  (kombinierten)  Suchbegriffen  ab. 

- Im  ganz  besonderen  Fokus  steht  die  Filtrierung  nach  einer 
bestimmten  Oberwachungskategorie  (z.  B.  «Gewaltextremismus») 
der  grossen  Datenmengen,  die  anfallen,  wenn  Funk-  Oder 
Kabelverbindungen  vollerfasst  werden.  Weitergehende  manuelle 
Oder  automatische  Auslese  entzieht  sich  dem  Umfang  der  Arbeit. 
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Grenzen  der  Arbeit 


- Es  werden  keine  konkreten  formalen  Suchbegriffe  (Meta-Daten: 
E-Mail-Adressen  o.  a.)  zur  Einengung  beigezogen:  das  real 
existierende  Szenario  wird  angenommen,  rein  nach  «verdachtiger 
Sprache»  zu  suchen,  um  entsprechend  verdachtige  Inhalte  zu  finden. 

- Die  konkreten  / vollstandigen  / das  Zustandekommen  der 
Oberwachungsbegriffe  (auch:  Selektoren)  sind  eigentliches 
«Herrschaftswissen»  und  nicht  offentlich  bekannt. 

- Dennoch:  aus  Enthullungen  und  parlamenterischer  Kontrollarbeit  sind 
Einzelfalle  bekannt  geworden. 

- Somit:  es  werden  Annahmen  getroffen,  wie  Selektoren  korpusbasiert 
(statistisch)  und  zudem  linguistisch  motiviert  zustande  kommen 
mussten. 
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Formen  von  (Massen-)Uberwachung 
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Formen  geheimdienstlicher  Uberwachung  (NDB) 

Die  Sensoren  des  NDB 


13.10.2015  Masterarbeit:  Computerlinguistik  und  Massenuberwachung 


Seite  9 


Universitat 

Zurich”" 


institut  fur  Computerlinguistik 


Paradigmen  der  Massenuberwachung 


- Fokus  auf  Meta-Daten:  wer  mit  wem,  wann,  wie  lange  usw. 
kommuniziert 

- Fokus  auf  Inhalte:  was  konkret  (auf  Basis  von  Wortoberflachen) 
gesagt  wird 

- Zudem:  Kombinationen  denkbar,  etwa  Filtrierung  von  Nachrichten 
bestimmter  Kommunikationsteilnehmer  mit  konkretem  Inhalt 

- Offene  Frage:  werden  Meta-Daten  nicht  zu  eigentlichem  Inhalt,  wenn 
damit  eine  Geschichte  erzahlt  / formlich  konstruiert  werden  kann? 
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Funk-Masseniiberwachung  nach  Schweizer  Art: 
«Onyx» 
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Auswertung  Schweizer  Massenuberwachung: 
«Achat» 
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Speicherfristen  Schweizer  Massenuberwachung 

- Meta-Daten  aller  Kommunikation  muss  von  Zugangs-Providern 
sechs  Monate  festgehalten  werden:  fur  ruckwirkenden  Zugriff  bei 
Strafverfolgung.  (BlIPF  Art.  12) 

- Bei  Onyx-Massenuberwachung  konnen  Meta-Daten  funf  Jahre 
gespeichert  werden.  (VEKF  Art.  4 Abs.  3) 

- Inhaltsdaten  konnen  bei  Onyx  18  Monate  lang  gespeichert  bleiben. 
(VEKF  Art.  4 Abs.  2) 

- Revision  des  Gesetzes  BUPF  sieht  eine  Ausweitung  der 
Speicherfrist  auf  12  Monate  vor;  auch  Content-  und  weitere 
Dienstanbieter  mussten  neu  Meta-Daten  speichern. 

- Neuschaffung  eines  Nachrichtendienstgesetzes  NDG  sieht  eine 
Ausweitung  der  praventiven  Massenuberwachung  auf 
Glasfaserkabeln  vor:  angezapft  sollen  die  Daten  direkt  bei  den 
Providern  werden.  Auf  BUPF-Daten  bestunde  neu  ebenso  Zugriff. 
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Recherche:  Forschung  zur  Massenuberwachung 
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Forschung  zur  Massenuberwachung: 
INDECT-Beispiel  (1) 


V2009101S  (B)  pdf 


1 150%  v | [D 


4.4.3  Terrorist  chat7 

Shazad  Tanweer  [PER. Individual]:  Any  extra  risks  getting  into  Pakistan  [GPE.NAT]  ? 

Omar  Khvam  [PERTndividual]:  We  had  five  Bengalis  [GPE.NAT]  last  year.  Guess  how  we 
|PER.Group|  got  them  [GPE.NAT]  in.  From  Bangladesh  [GPE.NAT]  all  the  way  across 
India  [GPE.NAT]  into  Pakistan[GPE.NAT]...  we  [PER.Group]  bribed  the  guy 
[PER.IndividuaI].  You  know  when  you  [PER.IndividuaI]  go  to  the  check-in,  it  would  all  be  set 
up. 

Mohammed  Siddique  Khan  [PER.IndividuaI]:  Going  through  the  airport  - normal  tickets. 

Omar  Khvam[PER.Individual]:  Yeah,  just  walk  straight  through  bruv  normal,  just  act  as  if 
you  arc  a Pakistani  [GPE.NAT]. 

Shazad  Tanweer  [PER.IndividuaI]:  I live  in  Faisalbad  [GPE.NAT] 

Omar  Khvam  [PER.IndividuaI]:  That's  not  a problem 

Omar  Khvam  [PER.IndividuaI]:  All  right  bruv  [PER.IndividuaI].  Get  your  parents  to  pick 
you  up.  Or  your  family  ...  And  that  way  you  will  breeze  through  the  airport  seriously.  Even  if 
they  [ORG.GOV]  are  following  you  [PER.IndividuaI]  - it  doesn't  really  count.  Chill  out, 
proper  chill  out ...  until  we  [PER.Group]  contact  you  and  then  we'll  pick  you  [PER.IndividuaI] 
UP- 
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Forschung  zur  Massenuberwachung: 
INDECT-Beispiel  (2) 

Q,  INDECT_Delhrerable_D4.ll  (l).pdf  [l75H  |J  = | 

6.  Pattern  Matching 

In  this  step  we  select  patterns  which  show  high  association  to  suspicious  websites  than  to  normal 
websites.  In  many  suspicious  websites,  the  sentences  containing  messages  to  influence  criminal  ac- 
tivities are  generally  grouped  within  other  normal  sentences.  For  example,  a suspicious  websites 
can  have  many  factual  information  and  few  suspicious  lines.  Thus,  the  patterns  extracted  from 
such  suspicious  websites  are  not  all  indicative  of  criminal  activities.  Most  of  these  patterns  will 
also  occur  in  normal  websites.  To  filter  out  such  normal  patterns  we  use  a very  simple  approach. 
Once  we  generate  patterns  from  both  suspicious  websites  and  normal  websites.  The  patterns  in- 
dicative of  criminal  activities  are  only  those  which  are  not  present  in  normal  websites.  Thus,  we 
select  only  patterns  which  are  present  in  suspicious  websites  but  not  in  normal  websites.  For  exam- 


Patterns  from  suspicious  websites 

Patterns  from  normal  website 

hand-package-boss 
everest-  mountai  n 
tall-mountain-world 

everest-mountain 
tail-mountain- world 
temperature-cold-winter 

Table  4:  Possible  patterns  generated  from  suspicious  and  normal  websites 
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Forschung  zur  Massenuberwachung:  Beispiel 
NSA-Patente  mit  CL-Bezug  (1) 


- Method  of  retrieving  documents  that  concern  the  same  topic  (1 995) 

- Language-independent  method  of  generating  index  terms  (1 998) 

- Automatically  generating  a topic  description  for  text  and  searching 
and  sorting  text  by  topic  using  the  same  (1999) 

- Device  and  method  for  full-text  large-dictionary  string  matching  using 
n-gram  hashing  (2001 ) 

- Method  for  finding  large  numbers  of  keywords  in  continuous  text 
streams  (2001 ) 

- Method  of  summarizing  text  using  just  the  text  (2005) 
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Forschung  zur  Masseniiberwachung:  Beispiel 
NSA-Patente  mit  CL-Bezug  (2) 


- Method  of  optical  character  recognition  using  feature  recognition  and 
baseline  estimation  (2008) 

- Natural  language  database  searching  using  morphological  query 
term  expansion  (201 0) 

- Method  of  database  searching  (201 0) 

- Method  of  identifying  topic  of  text  using  nouns  (201 0) 

- Method  of  assessing  language  translation  and  interpretation  (2012) 

- Device  for  and  method  of  language  processing  (2013) 
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Recherche:  Praxis  von  Masseniiberwachung 
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Praxis  von  Massenuberwachung: 
XKeyscore-Beispiel  (1) 


13.10.2015 


TOP  SECRETHCOMINTHREL  TO  Ui 


'ontexts 


email_body(expr) 

The  UTF-8  normalized  text  of  all  email  bodies. 
email_body(‘how  to’  and  ’build’  and  (‘bomb’  or  ‘weapon’)) 

chat_body(expr) 

The  UTF-8  normalized  text  of  all  chat  bodies. 
chat_body(‘how  to’  and  ‘build’  and  (‘bomb’  or  ‘weapon’)) 

document_body(expr) 

The  UTF-8  normalized  text  of  the  Office  document.  - 
Office  documents  include  (but  are  not  limited  to)  Microsoft  Office.  Open  Office. 
Google  Docs  and  Spreadsheets. 

document_body(‘how  to’  and  ‘build’  and  (‘bomb’  or  ‘weapon’)) 

calendar_body(expr) 

The  UTF-8  normalized  text  of  all  calendars.  An  example  is 
Google  Calendar, 
calendar  body(‘wedding’) 

archive_files(expr) 

Matches  a list  of  files  from  within  an  archive.  For  example  is 
a ZIP  file  is  transmitted,  all  names  of  files  within  are  passed  to 
this  context. 

archive  filesfbad.dU’  or  ‘virus.doc’) 

http_post_body(  expr) 

The  UTF-8  normalized  text  HTTP  url-encoded  POSTs. 
http_post_body(‘action=send’  and  ‘badguy@yahoo’) 

TOP  SECRET//COMINT//REL  TO  USA.  AUS.  CAN,  GBR,  NZL 
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Praxis  von  MassenLiberwachung: 
XKeyscore-Beispiel  (2) 


Sacwitems  = ‘machine  gun’  or  ‘grenade’  or  ‘AI<  47 ’ 

• Sacwpositions  = 'minister  of  defence’  or  ‘defense  minister’ 
Sacwcountries  = ‘Somalia’  or  ‘liberia’  or  ‘sudan’ 

* $acwbrokers  = ‘south  africa’  or  ‘serbia’  or  ‘bulgaria’ 
$acwports  = ‘rangood’  or  ‘albasra’  or  ‘dar  es  salam’ 

topic(’wmd/acw/govtorgs')  = 

email_body($acwitems  and  Sacwpositions  and 
(Sacwcountries  or  Sacwbrokers  or  Sacwports)); 


TOP  SECRET//COMINT//REL  TO  USA.  AUS.  CAN,  GBR,  NZL 
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Praxis  von  MassenLiberwachung: 
XKeyscore-Beispiel  (3) 


• How  do  I find  a strong-selector  for  a known 
target? 

• How  do  I find  a cell  of  terrorists  that  has  no 
connection  to  known  strong-selectors? 


• Answer:  Look  for  anomalous  events 

• E.g.  Someone  whose  language  is  out  of  place  for  the 
region  they  are  in 

• Someone  who  is  using  encryption 

• Someone  searching  the  web  for  suspicious  stuff 


TOP  SECRET//COMINT//REL  TO  USA,  AUS,  CAN,  GBR,  NZL 
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Praxis  von  Masseniiberwachung: 
NSA-Untersuchungsausschuss  (1) 


| Q https://netzpolitik.org/2015/live-blog-aus-dem-geheimdienst-untersuchungsausschuss-2/ 

k access,  place  your  bookmarks  here  on  the  bookmarks  bar.  Import  bookmarks  now.., 


Sensburg:  Warum  heiBt  das  Wortbank-Gruppe,  weil  Datenbank  von  Worten,  die  interessant  sind? 

K.M.:  Ja,  quasi.  Wir  hatten  schonmal  „Bomb"  als  Suchbegriff  drin,  das  war  groBer  Reinfall,  weil  auch 
„Sexbomb"  getroffen  hatte.  Was  an  arabischen  und  kyrillischen  Sachen  in  Datenbank  ist,  ist  auch 
vernachlassigbar. 

Sensburg:  Zuruckzu  dritter  Ebene?Gibt  es  eine  Erklarung  zu  Begriffen,  die  ihn  als  G-10+Hinweis  einordnen 
lassen?  Was  sind  deutsche  und  europaische  Interessen? 

K.M.:  Z.B.  Firmennamen. 

Sensburg:  Wie  erkennt  man  europaische  Suchbegriffe? 
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Praxis  von  Masseniiberwachung: 
NSA-Untersuchungsausschuss  (2) 


| g https://netzpolitik.org/2015/live-blog-aus-dem-geheimdienst-untersuchungsausschuss-2/ 

k access,  place  your  bookmarks  here  on  the  bookmarks  bar.  Import  bookmarks  now.,. 


Sensburg:  Versuche  zu  verstehen,  mit  welcher  Sensibilitat  man  an  die  Wahrung  deutscher  Interessen 
herangegangen  ist.  30.000  erscheint  mir  wenig,  wenn  nicht  gleich  alle  Oettingers  der  Welt  rausgefiltert 
werden. 

K.M.:  Angenommen,  NSA  steuert  nur  ganze  Mailadressen  zu.  Wir  wurden  dann  mit  „siemens.com" 
Tausende  Adressen  erschlagen. 

Sensburg:  Warum  nicht  nur  ..Siemens'? 

K.M.:  Bei  Siemens  wurde  es  Sinn  machen,  bei  „Audi"  nicht,  sonst  ist  das  ja  auch  ..Saudi" 
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Eigene  (exemplarische)  Massenuberwachung 
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Uberwachungssetting  (1) 


- Trainingsdaten:  alien  Text  (auch  z.  B.  aus  PDFs)  von  aufbau.org  und 
pnos.ch  (getrennt);  Grund:  Gruppen  gelten  als  namentlich 
«gewaltextremistisch»  gemass  Bericht  vom  Nachrichtendienst  des 
Bundes  NDB. 

- Evaluationsdaten: 

1 . Volluberwachung  des  eigenen  Internetverkehrs  fur  mindestens  zehn 
Tage. 

- Technik:  Alix-Board  (AMD  Geode)  als  bridge  mit  FreeBSD  und  tcpflow 

- Idee:  Aufzeigen,  ob  Treffer  erfolgen,  am  Beispiel  des  Anschlusses  einer 
“unbescholtenen”  Kleinfamilie;  und  inwiefern  diese  «extremistisch»  (links 
Oder  rechts)  erfolgen. 
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Uberwachungssetting  (2) 


- Evaluationsdaten: 

2.  Nutzung  offentlich  nutzbarer  Suchmaschinen  zur  Evaluation  der 
Uberwachungsbegriffe  nach  Inhalten,  die  True  (TP)  und  False  Positive 
(FP)  im  Sinne  verdachtigen  Materials  nach  Trainingskorpus  sein  konnen. 

3.  Hiermit:  Simulation  von  XKeyscore  mit  offentlich  indexiertem  Material 
und  und  aufzeigen,  welche  Art  von  Inhalten  / Webseiten  angesteuert 
werden  mussten,  um  bei  der  Massenuberwachung  in  die  engere 
Auswahl  zu  geraten. 

- Whitenet:  Google,  Yahoo!,  Bing,  MetaGer,  Startpage,  DuckDuckGo, 
Swisscows,  search. ch 

- Whitenet  (peer-to-peer):  YaCy 

- Darknet:  Not  Evil  (im  Tor-Netzwerk:  hss3uro2hsxfogfq. onion) 
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Uberwachungssetting  (3) 


- Trainings-  und  eigens  erstelltes  Evaluationsmaterial  (aus 
uberwachtem  Datenstrom)  wird  mittels  Apache  Tika  nach  Inhalt 
gescrapped. 

- Doppelte  Dateien  werden  geloscht. 

- Inhaltlich  fortbestehendes  Navigations-/Fussnoten-/Titelmaterial  Oder 
andere  nicht-linguistische  Artefakte  werden  auf  Basis  doppelten 
Vorkommens  (im  Vergleich)  entfernt. 

- Beim  Trainingsmaterial  wird  zudem  mittels  Apache  Tika 
sichergestellt,  dass  nur  (mehrheitlich)  deutsche  Dokumente 
beibehalten  werden. 

- Evaluation  wird  mittels  Kommandozeilentools,  kleinen  Skripten 
und/oder  Webbrowser  durchgefuhrt. 
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Drei  Filtermodelle  zur  Massenuberwachung  (1) 


TF*IDF-Modell:  Uberwachung  auf  Basis  relativ  haufiger  und  gut  uber  die 
Dokumente  verteilter,  aber  nicht  haufigster  und  uberall  (in  alien 
Dokumenten)  vorkommender  Worter;  ohne  Stoppworter 
- Auswahl  von  15  Selektoren;  zu  je  funf: 

- Einzelworte 

- Wortkombinationen 

- Wort-2-Gramme 
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Drei  Filtermodelle  zur  Masseniiberwachung  (2) 


Verdachtssprache-Modell:  Oberwachung  auf  Basis  verdachtiger 
Sprache  mit  Fokus  auf  Skandalvokabular,  Sprachintensivierung  und 
-relativierung: 

- Paper:  Sarah  Ebling  / Joachim  Scharloth  / Tobias  Dussa  / Noah 
Bubenhofer  (201 2):  Gibt  es  eine  Sprache  des  politischen 
Extremismus?  In:  Frank  Liedtke  (Hrsg.):  Sprache,  Politik, 
Partizipation.  Bremen:  Hempen. 

- Auswahl  von  15  Selektoren;  zu  je  funf: 

- Haufige  Einzelworte  Oder  Phrasen  mit  skandalisierendem  Charakter 

- Haufige  Relativierer-Wort-Kombinationen 

- Haufige  Intensivierer-Wort-Kombinationen 


13.10.2015  Masterarbeit:  Computerlinguistik  und  Masseniiberwachung 


Seite  30 


Universitat 

Zurich1™ 


Institut  fur  Computerlinguistik 


Drei  Filtermodelle  zur  Massenuberwachung  (3) 


LDA-Modell:  Uberwachung  auf  Grund  thematischer  Ahnlichkeit  von 
Dokumenten;  Thema  als  Kombination  verschiedener  Worter  einer 
Textkollektion. 

- Auswahl  von  25  Selektoren:  Bestimmung  von  funf  Topics  und 
Auswahl  der  jeweils  funf  wahrscheinlichsten  Worter,  um 
Kombinationen  von  1-5  Worter  zu  bilden. 
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Evaluationsarbeit 


- In  der  Summe  der  drei  Modelle  zur  Massenuberwachung  werden  55 
Selektoren  je  Trainingskorpus  (aufbau.org;  pnos.ch)  evaluiert: 

insgesamt  110  Selektoren. 

- Es  werden  zehn  Suchmaschinen  als  Evaluationskorpora  genutzt  und 
der  eigens  uberwachte  Datenstrom  als  weiteren  (personlich 
differenzierten)  Evaluationskorpus  beigezogen:  insgesamt  elf 
Evaluationskorpora. 

- Im  Produkt  ergeben  sich  1 ’21 0 zu  vollziehende  Selektionen. 

- Bei  den  Suchmaschinen  werden  je  Selektion  fiinf  Ergebnisse  manuell 
ausgewertet  und  das  Verhaltnis  TP-FP  gemessen. 

- Beim  uberwachten  Datenstrom  wird  analog  vorgegangen,  wenn  auch 
weniger  Treffer  moglich  sind  (wesentlich  kleineres  Korpus). 

- Insgesamt  werden  - gegeben  Treffer  - bis  zu  6’050  Ergebnisse  als 
verdachtige  Dokumente  manuell  evaluiert. 
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Einzelbeispiele  von  moglichen  Selektoren 


- aufbau.org 

— aufbau.org  (TF*IDF-Modell):  repression,  frauenkampf,  bulle 

— aufbau.org  (Skandalvokabular):  steuergeschenk, 
hetzerisch-rassistisch 

— aufbau.org  (Intensivierung):  protest  (lautstark) 

— aufbau.org  (Relativierung):  demokratie  (deckmantel  von) 

- pnos.ch 

— pnos.ch  (TF*IDF-Modell):  ahnensturm,  sicherheitsdienst 

— pnos.ch  (Skandalvokabular):  maulkorbgesetz,  fluchtlingsflut 

— pnos.ch  (Intensivierung): masseneinwanderung  (katastrophal) 

— pnos.ch  (Relativierung):  kiinstler  (sogenannt) 
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Fragen  & Kritik  zum  Beitrag 
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Fragen  &Kritik 
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